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摘要 :【 目的 ] 开发 网 络 信息 存档 WARC 文件 的 解析 与 索引 系统 ， 充 分 挖掘 科技 网 站 存档 资源 价值 。[ 应 用 背景 】 
在 网 络 资源 采集 存档 领域 , WARC 文件 格式 获得 了 广泛 的 应 用 。 随 着 网 络 信息 的 多 样 化 , 已 有 的 WARC 文件 索 
引 工具 越 来 越 难以 满足 用 户 多 样 性 的 查询 需求 。[ 方法 】 采用 模块 化 方案 解析 WARC 文件 。 分 析 比 较 常 用 的 索 
引 工具 , 选择 Solr 平台 开发 全 文 索引 系统 。[ 结果 】 实 现 对 WARC 文件 基于 内 容 的 检索 访问 服务 , 并 在 WARC 
的 索引 中 增加 了 学 科 分 类 、 资 源 类 型 和 存档 时 间 等 分 面 检索 内 容 , 从 多 维度 对 WARC 文件 内 容 进行 揭示 。[ 结论 】 
向 用 户 提供 了 丰富 的 科技 网 站 存档 数据 信息 ,提高 了 用 户 检索 访问 效率 。 


关键 词 : 网 络 存 档 ”WARC 文件 ”模块 化 解析 Solr 索引 


分 类 号 : G352 


1 3 引 


随 着 互联 网 在 社会 生活 中 的 深度 扩展 ,网络 信息 
的 更 新 速度 不 断 加 快 ， 网 络 资源 的 生命 周期 变 得 更 加 
短暂 。 采 和 集 并 保存 具有 价值 的 Web 资源 信息 ,以 满足 
当前 和 未 来 的 访问 和 使 用 , 已 成 为 国内 外 许多 保存 机 
构 的 重要 工作 , 一 些 重要 在 线 资源 的 存档 ， 如 科研 和 
商业 信息 , 已 经 上 升 到 国家 战略 层面 。 
国际 网 络 保存 联盟 GIPC)D 自 成 立 以 来 , 一直 致力 
于 推动 全 球 网 络 存档 (Web Archive) 活 动 ， 其 成 员 包 括 
全 球 40 多 个 国家 图 书馆 、 档 案 馆 等 , 在 网 络 信息 保存 
领域 占有 十 分 重要 的 地 位 。 为 了 更 好 地 支持 采集 和 访 
问 ， 以 及 存档 机 构 之 间 的 交流 ，IPC 提出 了 标准 化 的 
网 络 文件 存档 格式 WARC(Web Archive), 并 于 2009 年 
成 为 ISO 国际 标准 中。WARC 文件 格式 具有 记录 信息 
量 大 、 支 持 扩展 和 压缩 以 及 易于 管理 的 特点 , 已 在 许 
多 Web Archive 项 目 中 得 到 广泛 应 用 外。 

随 着 参与 保存 的 科研 机 构 数量 增多 , 存档 资源 数 
据 量 的 迅速 上 升 , 存档 资源 信息 的 利用 与 共享 成 为 
Web Archive 活动 中 越 来 越 重要 的 方面 。 如何 提升 用 户 


了 中 


体验 , 满足 用 户 多 样 性 的 查询 需求 ; 如 何 利用 先进 的 
技术 有 效 重用 存档 资源 ， 充分 发 挥 存档 资源 的 价值 ， 
这 些 都 成 为 存档 项 目 开发 面临 的 挑战 .WARC 文件 解 
析 和 索引 技术 的 提高 ,成 为 解决 这 些 问题 的 关键 环 放 。 
本 文 将 详细 介绍 中 国 科 学 院 文献 情报 中 心 Web Archive 
队 在 国际 重要 科研 机 构 网 络 资源 存档 实践 中 ， 如 何 
有 效 地 实施 WARC 的 解析 及 构建 全 文 索 引 系 统 。 


2 WARC 索引 工具 现状 及 需求 分 析 


网 络 存档 内 容 不 仅 数据 量 巨 大 ， 而 且 随 着 时 间 在 非 
线性 地 动态 增加 ,为 了 实现 WARC 存档 文件 的 检索 和 访 
问 , 对 WARC 的 解析 与 索引 显得 尤为 重要 ,最 常用 的 开 
源 软件 工具 包括 Wayback 由 NutchWAXD 和 WERAG 等 。 

Wayback 是 互联 网 档案 馆 (Internet Archive, IA) 提 
供 的 一 个 基于 URL 的 索引 与 访问 工具 ,可 以 重 现时 间 
轴 上 不 同时 间 点 存档 的 页 面 , 但 不 支持 对 文本 内 容 的 

今 案 访问 ， 因 而 难以 满足 用 户 多 样 化 的 搜索 需求 。 
NutchWAXI" 可 以 实现 基于 内 容 的 全 文 索 引 和 检索 ， 
并 在 许多 国家 的 网 络 存档 项 目 中 得 到 应 用 。 目 前 ， 
Nutch 开发 团队 战略 方向 发 生 了 变化 由, 已 很 少 提供 
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NutchWAX 的 后 续 维 护 和 更 新 ， 而 专注 于 网 络 爬 虫 工 
具 的 开发 。 此 外 ,NutchWAX 依赖 于 Hadoop 的 文件 系 
统 建立 索引 , 不 具备 在 本 地 建立 索引 的 能 力 ; 功能 扩 
展 比较 困难 , 需要 修改 大 量 的 代码 才能 实现 。 因 此 ， 
NutchWAX 已 不 再 是 一 个 合适 的 提供 全 文 检索 的 平 
台 。WERA 也 是 一 款 比较 常用 的 网 络 存档 内 容 查询 与 
浏览 工具 , 它 由 IA 和 挪威 国家 图 书馆 共同 开发 ， 既 可 
以 提供 类 似 于 Wayback 的 URL 检索 功能 , 也 具备 全 文 
检索 的 能 力 。 但 是 , 开发 人 员 采 用 NutchWAX 作为 其 搜 
索引 擎 的 内 核 , 因而 WERA 也 没有 从 根本 上 解决 
NutchWAX 所 面临 的 局 限 性 。Sold 是 应 用 十 分 广泛 的 
开源 企业 级 搜索 软件 , 具备 全 文 索引 和 分 面 检索 功能 。 
IA 在 对 比 NutchWAX 和 Solr 性 能 后 ， 发 现在 保存 的 文 
档 数 量 急剧 增加 时 , NutchWAX 的 检索 性 能 明显 低 于 
Solr 因而 推荐 采用 Solr 作为 未 来 全 文 检索 的 平台 。 
前 ,大英 图 书馆 、 和 荷兰 视听 研究 所 以 及 IA 已 经 开始 探 
索 使 用 Solr 解决 WARC 存档 项 目的 全 文 检索 问题 。 

中 国 科 学 院 文献 情报 中 心 在 实施 国际 重要 科研 机 
构 网 络 信息 存档 项 目 59 中 ， 需要 构建 一 个 Web 存档 
访问 服务 平台 ,为 科研 人 员 、 人 情报 人 员 、 科 技 管理 人 
员 长 期 有 效 地 利用 存档 资源 提供 有 利 的 支撑 。 这 不 但 需 
要 对 存档 资源 提供 基本 访问 服务 能 力 , 同时 需要 支持 
用 户 在 时 间 线 上 对 相应 的 网 络 科 技 信息 进行 研究 和 分 


加 记录 标 头 


WARC Record 
WARC Record 
单个 | | WARC Record H 


WARC 
WARC Record 
WARC Record 


析 , 还 需要 为 数据 挖 据 和 再 利用 提供 历史 数据 的 支撑 。 
这 些 功 能 的 实现 需要 底层 索引 系统 提供 有 力 的 支持 ,而 
现 有 的 WARC 索引 工具 很 难 满足 这 些 要 求 , 因此 在 项 目 
研发 过 程 中 , 笔者 开始 探索 利用 Solr 平台 构建 面向 
WARC 文件 的 全 文 索引 系统 以 满足 用 户 的 需求 。 

在 网 络 资源 长 期 保存 与 检索 领域 , 与 Solr 相关 的 研 
究 仍 处 于 起 步 阶段 ,存在 许多 问题 需要 解决 , 尤其 是 
Solr 不 具备 直接 索引 WARC 文件 的 能 力 。 为 了 解决 上 述 
问题 , 并 从 WARC 文件 中 提取 出 更 多 的 信息 , 本文 利用 
WARC 文件 的 结构 化 特性 , 采用 模块 化 方案 实现 WARC 
文件 的 解析 ; 从 解析 结果 中 提取 索引 字段 内 容 , 并 利用 
Sotr 平台 构建 面向 WARC 文档 的 全 文 索引 系统 。 


3 WARC 文件 模块 化 解析 的 设计 与 实现 


3.1 WARC 文件 结构 样 例 及 存储 方案 

WARC 能 在 单个 文件 中 安全 地 承载 大 量 数据 对 象 ， 
它 提 供 了 将 多 个 资源 记录 (WARC Record) 连 接 成 单个 
长 文件 (WARC 文件 ) 的 机 制 , 按照 互联 网 上 抓 取 内 容 块 
的 顺序 存储 “网 络 息 取 的 内 容 ”。 为 了 便于 数据 的 保存 与 
分 享 WARC 格式 的 文件 由 单个 或 多 个 WARC 记录 简 
单 连接 而 成 , 第 一 个 记录 通常 用 于 描述 后 续 的 多 个 记 
录 。 以 采集 科技 网 站 (http://www.iahe.org/) 为 例 , 图 1 给 
出 了 采集 该 站 点 生成 的 WARC 文件 所 包含 的 信息 。 
[一 Warc-Type=response 
| 一 Warc-Date=2014-03-27T09:15:27Z 
—Warc-Record-ID=<urn:uuid:602e7461- 


1b45-4e0a-81cd-05834c40f330> 
[一 Content-Type=application/http 


[— Absolute-offset=742 
| 一 Content-length=32608 


Warc-Payloa-Digest=shal:PB7UTLRONT 
WXCXAMZONSYZYRA57WGCYL 
Warc-IP -Address=213.238.130.4 


Http//1.1 200 OK 


一 个 空 ES 


Cache- Control:Private 

ontent- length:32344 

ontent- type:text/html 

Server: Microsoft-IIS 7.5 

Date:27 Mar 2014 09:04:57 GMT 
Connection:close 

<Html> 

<Head> 

<Title> Welcome to the International 


Association for Hydrogen Energy 
<Body>…</Body> </Hmtl> 


图 1 采集 科技 网 站 (http://www.iahe.org/) 生 成 的 WARC 文件 包含 的 信息 
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一 般 情况 下 ，WARC 记录 的 内 容 或 者 是 一 次 检索 
的 直接 结果 (网 页 、 内 骨 图 片 、URL 转向 信息 、DNS 
主机 名 查询 结果 、 独 立 文件 等 ), 或 者 是 为 存档 内 容 提 
供 附加 信息 的 综合 资源 (如 元 数据 、 转 化 后 的 内 容 )。 
每 个 WARC Record 由 一 组 简单 文本 标 头 和 任意 数据 
内 容 块 构 成 , 其 中 WARC 记录 标 头 的 第 一 行 ， 是 用 于 
声明 该 记录 采用 给 定 版 本 号 的 WARC 格式 , 然后 是 以 
空 行 结束 的 不 定 行 数 的 命名 字段 。 可 以 发 现 , WARC 
文件 结构 具有 分 层 和 结构 化 的 特征 。 

由 于 网 站 内 容 数据 量 大 , 采集 网 站 信息 会 生成 大 
量 WARC 文件 ， 其 储存 方案 和 提供 的 方式 取决 于 软 
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件 及 应 用 程序 的 实现 。 本 文 使 用 Heritrix 对 站 点 进行 
采集 , 采集 结果 可 以 分 由 多 个 WARC 文件 存储 ,每 个 
WARC 文件 的 最 大 体 量 可 以 通过 Heritrix 的 配置 文件 
orderxml 进行 设置 和 管理 ， 即 通过 写 组 件 <map 
name="write-processors"> 中 的 max-size-bytes 参数 进行 
设置 , 并 且 Heritrix 会 自动 对 一 次 采集 任务 生成 的 
WARC 文件 进行 编号 ,如 在 采集 过 程 中 设置 的 WARC 
文件 最 大 为 1GB， 当 对 站 点 采集 的 数据 小 于 1GB 时 ， 
只 生成 一 个 WARC 文件 WARC 文件 名 中 包含 序号 
0000， 当 超过 1GB 时 , 会 分 为 多 个 WARC 文件 进行 存 
储 , 顺序 采用 0001, 0002, 0003 等 ,如 图 2 所 示 : 


图 2 WARC 文件 顺序 存储 示意 图 


3.2 WARC 文件 模块 化 解析 

根据 WARC 文件 的 结构 化 特点 , 本文 在 设计 
WARC 文件 解析 方案 时 采用 分 层 解析 以 及 解析 功能 模 
块 化 的 思路 。WARC 文件 解析 流程 如 图 3 所 示 ， 其 解 
析 过 程 可 以 分 为 4 个 功能 模块 : WARC Record 获取 模 
块 、 标 头 获取 模块 、WARC Record 内 容 块 获取 模块 和 
内 容 块 解析 模块 。 

(1) WARC Record 获取 模块 

一 个 WARC 文件 由 多 个 资源 记录 WARC Record 
顺序 连接 构成 , 通过 WARC Record 获取 模块 将 WARC 
文件 拆 分 为 多 个 WARC Record, 这 样 就 由 解析 WARC 
文件 内 容 转 变 为 解析 WARC Record 的 内 容 。 

Heritrix 源 代 码 中 除了 网 络 信息 采集 的 核心 工具 
包 之 外 , 还 提供 针对 WARC 格式 的 IO 操作 包 


org.archive.io.warc。 本 文 利用 该 包 的 核心 类 对 WARC 
文件 进行 读 取 ， 如 WARCReader.java, WARCRecord. 
java, WARCReaderFactory.java 等 。 在 WARC 文档 解析 
的 过 程 中 , 循环 调用 WARCReaderFactory 类 中 的 
get(String warcFilePathb) 函 数 来 获取 WARC Reader 对 
象 , 遍历 整个 WARC 文档 , 即 可 以 获得 每 一 个 WARC 
Record。 

(2) WARC Record 标 头 获取 模块 

每 个 WARC Record 结 构 一 致 ， 都 包括 一 组 WARC 
记录 标 头 和 内 容 块 , 在 获得 WARC Record 后 ,可 通过 
WARC Record 类 中 的 getHeader0) 了 水 数 完成 对 记录 头 标 
区 信息 的 解析 ， 即 获取 WARC Record 标 头 各 命名 字段 
信息 ,这 些 信息 保存 在 数据 结构 Map 中 。 对 一 个 
WARC Record 标 头 的 解析 结果 如 表 1 所 示 。 
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1.WARC Record 获 取 模 了 

通过 WARCReaderFactory 
.get(warcFilePath) 获得 WARCReader 
-4 

2 

_ 谋取 WARCReader; 是 

一 是 在读 完 ?一 


pr 
结 ) 
>( 结束 ) 


= 
否 
| 获得 单个 WARC Record 
了 .WARGC Record 标 尖 获 取 模 二 1 NE 
利用 getHeader() 获 取 记 录 标 头 | 
| 
| 
v Y + 
WARC- WARC- WARC- WARC- Content- Content reader- 
Date Record-ID | Target-URI Type Length -Type identifier 


> [a 


一 一 Response 类 型 一 


丐 
利用 Warcrecord.read() 
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_— Word、 PPT、 一 、 左 | 调用 POI | 
Excel 类 型 -一 解析 


个 
否 
a 


| 获得 ContentType | 


判断 Content- 
vv Type 类 型 


一 是 | 调用 PDFBox| 
> 解析 


a 


否 


调用 HTML 
了 ee Parser 解 析 


图 3 WARC 文件 解析 流程 


表 1 WARC Record 标 头 的 解析 结果 样 例 (3) WARC Record 内 容 块 获取 模块 
序号 Key Value 类 似 地 , 在 获得 WARC Record 后 , 利用 WARC 
1 WARC-Type response Record 类 中 的 Warcrecord.read0 读 取 WARC Record 内 


2 reader-identifier 


3 WARC-Date 

4 absolute-offset 

5 Content-Length 

6 WARC-Record-ID 


7 WARC-IP-Address 


WARC-Payload- 
Digest 


9 WARC-Target-URI 
10 Content-Type 


http://124.16.154.180:8066//warcs/201 
403/www.iahe.org-20140327091515-0 
0000-hadoop-master-180.warc.gz 
2014-03-27T09:15:27Z 

742 

32608 


<urn:uuid:602e7461-1b45-4e0a-81cd- 
05834c40f330> 


213.238.130.4 


shal:PB7UTLRONTWXCXAMZONS 
YZYRAS7WGCYL 


http://www.iahe.org/ 
application/http; msgtype=response 
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容 , 并 以 字 节 数组 形式 存储 。 

(4) WARC Record 内 容 块 解析 模块 

前 述 模块 利用 Heritrix 提供 的 WARC 格式 IO 操 
作 包 中 的 核心 类 获取 WARC Record 标 头 字 段 信息 和 
内 容 块 ， 而 对 WARC Record 内 容 块 的 解析 是 通过 自行 
开发 模块 的 parseContent(byte[] content) 完 成 。 解 析 过 
程 如 下 : 

WARC Record 内 容 块 是 由 HTTP 协议 头 、 两 个 空 
行 和 资源 内 容 组 成 。 首 先 通过 空 行 分 隔 从 WARC 
Record 取出 HTTP 协议 头 部 分 进行 解析 ,可 以 获取 其 


中 包含 的 数据 信息 。 一 个 HITP 协议 头 的 解析 结果 样 
例如 下 : 

HTTP/1.1 200 OK 

Cache-Control: Private 

Content-Length: 32344 

Content-Type: text/html 

Server: Microsoft-IIS/7.5 

Set-Cookie:ASPSESSIONIDCCCATDCR=BGOBMIKBGEKJJO 

MFKGCDLAJB; path=/ 
X-Powered-By: ASPNET 
Date: Thu, 27 Mar 2014 09:04:57 GMT 


Connection: close 

该 步骤 主要 目的 是 通过 解析 HTTP 协议 头 进而 
获知 Content-Type 字段 内 容 ， 即 明确 存档 页 面 的 资源 
类 型 ， 然 后 根据 资源 类 型 调用 不 同 的 解析 工具 去 解 
析 : 知 资 源 类 型 为 PDF,， 则 调用 PDFBox 解析 ; 大 资 
源 类 型 为 Word、PPT、Excel, 则 调用 POI 解析 ; 若 资 
源 类 型 为 HTML， 则 调用 HTMLParser 解析 等 。 在 获 
得 存档 页 面 的 标题 和 内 容 后 , 将 信息 保存 到 数据 结 
构 Map 中 。 最 终 , Map 中 保存 了 WARC Record 的 标 
头 字 段 、 标 题 和 内 容 , 完成 了 对 单个 WARC Record 
的 完整 解析 。 
由 于 网 络 资源 内 容 的 多 样 性 和 复杂 性 ,不 排除 
某 些 特别 资源 出 现 无 法 解析 或 解析 时 间 过 长 的 情况 ， 
在 实际 解析 过 程 中 , 为 了 保障 WARC 文件 的 解析 效 
率 , 笔者 定义 了 一 个 守护 线程 去 执行 WARC 文件 的 
解析 ,通过 设置 守护 线程 的 执行 时 间 来 保障 解析 顺 
利 进行 。 

从 上 述 过 程 不 难看 出 , 采用 模块 化 解析 方案 简化 
了 WARC 文 件 的 解析 实现 , 可 以 将 WARC 文 件 内 容 根 
据 WARC 结构 拆 分 成 相互 独立 的 组 成 部 分 有 利于 构 
建 内 容 索引 ， 并 可 以 为 以 后 做 数据 挖掘 、 元 数据 抽取 、 
数据 分 析 服 务 等 提供 方便 易 用 的 接口 。 


4 基于 Solr 平台 构建 WARC 文件 全 文 索引 
系统 


Web Archive 系统 不 仅 要 实现 对 WARC 文件 的 长 
期 保存 ,而 且 要 能 够 对 WARC 解析 后 的 内 容 建立 有 效 
的 索引 ， 以 向 用 户 提 供 高 效 的 检索 和 访问 功能 。 考 虑 
到 Solr 在 全 文 索引 和 分 面 检索 方面 的 强大 优势 ,本 文 
利用 Solr 工具 开发 WARC 文件 内 容 索 引 模 块 ， 以 优化 
用 户 检索 和 访问 效果 ,提升 用 户 体 验 。 


总 第 270 期 2016 年 第 5 期 


4.1 自动 索引 系统 流程 设计 

为 了 实现 对 WARC 文件 的 自动 化 实时 索引 ,开发 
了 一 个 监测 模块 ,能够 实时 监测 是 否 有 新 的 WARC 文 
件 生成 ; 当 有 新 的 WARC 文件 生成 时 ,自动 将 其 加 入 
索引 队列 ， 等 待 索引 模块 进行 索引 ， 保 障 了 WARC 文 
件 索引 和 检索 内 容 更 新 的 实时 性 。 


加 入 WARC 
索引 队列 


获得 WARC 存 储 
路 径 和 站 点 ID 


根据 站 点 ID 查询 
数据 库 


获取 WARC 


站 后 
能 祈 启 的 字段 基点 


构建 索引 


图 4 WARC 文件 自动 索引 系统 方案 设计 


图 4 给 出 了 WARC 文档 自动 索引 的 方案 设计 , 首 
先 要 实现 WARC 生成 系统 、 索 引 模块 和 WARC 文件 
解析 模块 的 对 接 ,， 达 到 对 WARC 文件 自动 化 持续 索引 
的 目的 。 中 国 科学 院 文献 情报 中 心 构建 的 采集 系统 对 
站 点 进行 周期 性 采集 , 采集 任务 完成 后 自动 将 生成 的 
WARC 上 传 到 存储 阵列 进行 统一 存储 , 为 了 实现 对 采 
集 生成 的 WARC 文件 实时 索引 ， 监 测 模块 可 以 周期 性 
对 存储 阵列 进行 轮 询 以 查看 是 否 有 新 的 WARC 生成 ， 
当 监 测 到 有 新 的 WARC 文 件 时 , 将 新 的 WARC 文件 加 
入 索引 队列 ,等待 索引 模块 实施 索引 。 索 引 模 块 从 索 
引 队 列 获取 索引 任务 , 然后 调用 WARC 获取 和 解析 模 
块 对 WARC 文件 进行 分 层 读 取 和 解析 , 解析 结果 保存 
在 数据 结构 Map 中 ; 索引 模块 从 Map 中 获取 要 建立 的 
索引 字段 的 值 , 可 以 获取 的 索引 字段 包括 该 存档 页 面 
的 URL、 存 档 时 间 、 资 源 类 型 、 存 档 页 面 的 标题 、 页 
面 内 容 等 。 


站 点 站 点 
类 型 名 称 
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4.2 索引 字段 设计 
索引 字段 的 设计 除了 上 述 WARC 解析 获得 的 字 
段 , 还 包括 数据 库 的 辅助 扩展 字段 ， 如 学 科 分 类 来 源 


的 站 点 名 称 、 站 点 类 型 等 。 每 条 索引 对 应 WARC 文件 
中 的 一 个 WARC Record， 即 一 个 存档 页 面 的 信息 。 索 
引 字 段 的 详细 设计 如 表 2 所 示 : 


表 2 索引 字段 设计 


序号 字段 名 称 字段 含义 字段 来 源 备注 
1 WARC _ Record ID 页 面 唯一 标识 WARC Record 头 部 解析 
2 WARC Target_URI 存档 页 面 URL WARC Record 头 部 解析 
3 WARC Filename WARC 文件 名 WARC Record 头 部 解析 
4 WARC Type 记录 类 型 WARC Record 头 部 解析 
5 WARC _ Date 存档 时 间 WARC Record 头 部 解析 
6 Datelist 存档 时 间 列 表 索引 查询 
gL year 年 WARC Record 头 部 解析 设 为 分 面 字段 
8 month 月 WARC Record 头 部 解析 
9 day 日 WARC Record 头 部 解析 
10 type 资源 类 型 WARC Record 内 容 解 析 
11 formattype 规范 资源 类 型 WARC Record 内 容 解 析 设 为 分 面 字段 
12 title 存档 页 面 标题 WARC Record 内 容 解析 
13 content 存档 页 面 内 容 WARC Record 内 容 解析 
14 keyword 页 面 关 键 词 WARC Record 内 容 解 析 
15 site_name 站 点 名 称 数据 库 设 为 分 面 字段 
16 site_en name 站 点 英文 名 称 数据 库 
17 site_url 站 点 URL 数据 库 
18 subject 站 点 学 科 分 类 数据 库 设 为 分 面 字 段 


4.3 索引 策略 设计 

为 了 提高 用 户 的 检索 效率 和 更 好 地 揭示 存档 的 
WARC 文件 内 容 , 笔者 设计 了 两 种 不 同 的 索引 策略 ， 
即 WARC 记录 综合 索引 和 存档 页 面 索引 。 
虽然 两 种 索引 策略 的 每 一 条 记录 都 代表 一 个 存档 
URL, 但 第 一 种 索引 策略 是 以 存档 页 面 的 WARC 
Record_ID 为 唯一 标识 符 , 每 一 条 索引 都 代表 一 个 完 
整 的 WARC Record, 建立 索引 时 需 将 WARC 文 件 的 解 
析 字 段 和 数据 库 读 取 字段 依次 写 人 索引 相应 字段 。 第 
二 种 索引 策略 是 以 存档 页 面 的 URL 为 唯一 标识 符 , 同 
时 新 增 一 个 datelist 索引 字段 ; 该 字段 为 一 个 多 值 字 
段 ,用 于 存储 该 存档 页 面 不 同 的 存档 时 间 , 代表 该 存 
档 页 面 自 存档 以 来 的 存档 次 数 和 每 次 存档 的 时 间 。 在 
为 每 一 个 WARC Record 建立 索引 时 ,首先 查询 索引 中 
是 否 存在 该 URL 记录 ; 若 不 存在 , 则 只 需 将 WARC 文 
件 的 解析 字段 和 数据 库 读 取 字 段 依次 写 人 索引 相应 字 
段 ; 若 索 引 中 已 存在 该 URL, 说 明 该 URL 已 经 被 存档 
过 , 则 将 此 次 的 存档 时 间 和 以 前 的 存档 时 间 合 并 , 重 
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新 写 入 datelist 字段 ， 而 其 他 字段 内 容 更 新 为 最 新 存档 
时 间 的 页 面 内 容 。 

采取 上 述 两 种 索引 策略 的 优势 在 于 可 以 满足 用 
户 多 样 性 的 查询 需求 ， 以 WARC Record_ID 为 唯一 
标识 符 的 索引 可 以 提供 存档 URL 每 一 次 采集 的 完 
整 信息 ， 以 存档 页 面 URL 为 唯一 标识 符 的 索引 可 以 
将 URL 多 次 采集 信息 进行 归并 人 处理, 能够 清晰 地 展 
示 每 一 个 URL 的 全 部 采集 情况 , 同时 大 大 减少 索引 
体 量 ,提高 检索 速度 ,并 且 这 两 种 索引 可 以 相互 支 
撑 ， 相 互补 充 。 


S Web Archive 访问 平台 应 用 效果 分 析 


中 国 科 学 院 文献 情报 中 心 已 基本 开发 完成 面向 重 
要 科研 机 构 的 Web Archive 访问 平台 , 实现 了 WARC 
文件 的 模块 化 解析 , 构建 了 基于 内 容 的 全 文 索引 系 
统 。 与 常用 的 开源 索引 工具 相 比 , 该 平台 具有 更 完善 
的 访问 和 检索 功能 ， 可 以 从 多 角度 向 用 户 展示 存档 资 
源 ， 如 表 3 所 示 。 
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表 3 不 同 访问 平台 的 索引 工具 功能 对 比 


功能 Wayback NuchtWAX WERA Web Archive 平台 
URL 检索 e oO . . 
内 容 检索 O . e e 
学 科 分 耳 O O O @ 
资源 类 型 分 画 O O o . 
时 间 分 面 O oO oO . 
站 点 浏览 O O 9 e 


( 注 : 具备 功能 , o 缺 少 功能 


截至 2016 年 1 月 , Web Archive 平 台 采 集 存 档 数据 
总 量 达 到 了 26TB( 压 缩 包 体 量 )，WARC 文件 数 总 计 两 
万 多 个 , 索引 体 量 超过 了 500GB; 平台 能 够 提供 URL 
和 全 文 检索 ,同时 增加 了 学 科 分 类 、 资 源 类 型 、 存 档 
时 间 等 分 面 内 容 , 实现 了 从 多 维度 对 WARC 文件 内 容 
进行 揭示 。 通 过 首页 内 容 检索 入 口 输入 关键 词 可 以 进 
行内 容 检索 ,如 图 5 所 示 。 检 索 结 果 给 出 了 采集 的 
URL, 对 文档 类 型 如 HIML、 PDF、DOC、 PPT、TXT 
等 提取 了 标题 和 内 容 ， 从 检索 结果 中 还 可 以 看 到 每 个 
URL 的 存档 次 数 、 所 属 的 学 科 领 域 、 所 属 站 点 名 称 以 
及 最 新 存档 时 间 等 , 同时 还 可 以 对 检索 结果 按 相 关 度 
和 日 期 进行 排序 ， 如 图 6 所 示 。 
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图 5 Web Archive 访问 平台 首页 的 检索 
入 口 及 功能 分 区 


图 6 检索 结果 页 面 
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6 结 语 


面向 国际 重要 科技 机 构 网 站 开展 的 Web Archive 
系统 建设 中 ,利用 开源 软件 Heritrix 实现 网 络 内 容 的 
大 规模 分 布 式 采集 ， 以 WARC 文件 格式 进行 存储 , 不 
仅 实现 了 科技 网 站 资源 的 长 期 保存 , 也 有 利于 存档 资 
源 的 可 持续 发 展 ,基于 Heritrix 提供 的 WARC 文件 IO 
操作 包 , 实现 了 WARC 文件 的 分 层 读 取 ; 对 读 取 的 
WARC 内 容 , 开展 了 不 同类 型 网 络 资源 的 模块 化 解析 ; 
奠定 了 构建 Solr 索引 的 基础 ,同时 为 进一步 的 数据 挖 
掘 、 元 数据 抽取 、 数 据 分 析 服 务 等 提供 相应 的 接口 。 

基于 Solr 平台 开发 的 WARC 文件 索引 和 访问 系 
统 , 增加 了 学 科 分 类 、 资 源 类 型 和 存档 时 间 等 分 面 内 
容 , 实现 了 从 多 维度 对 WARC 文件 内 容 进 行 揭示 。 可 
以 提供 对 存档 资源 的 URL 和 全 文 检索 ,同时 明显 提高 
了 WARC 文件 内 容 的 检索 效率 。 此 外 , 该 平台 能 够 实 
时 解析 和 索引 生成 的 WARC 文件 ， 跟踪 网 络 资源 的 动 
态 变化 , 对 于 Web Archive 的 在 线 实时 更 新 具有 重要 

Web Archive 资源 是 一 个 巨大 的 宝库 ， 如 何 深度 
挖掘 和 发 挥 存档 资源 的 价值 ， 是 未 来 面 对 的 主要 挑战 
之 一 , 也 是 今后 研究 的 方向 , 希望 笔者 的 探索 能 够 为 
网 络 保存 领域 的 同仁 提供 有 益 的 参考 。 
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A Full-text Indexing System for WARC Files 


Hu Jiying WuZhenxin XieJing Zhang Zhixiong 
(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 

Abstract: [Objective] This paper develops a parsing and indexing system for the WARC files, which fully exploits the 
value of Web archives from scientific institutions. [Context] The WARC files have been widely used in digital curation. 
However, the existing full-text indexing tools cannot satisfy the diversified needs of the WARC searchers. [Methods] 
We employed a modular Scheme to parse the WARC files. Upon analyzing popular indexing tools, developed a new 
full-text indexing system based on the Solr platform. [Results] The new system effectively indexed the Web archives. 
Users could search information from different perspective, such as the subject category, resource type, and archived 
time, etc. [Conclusions] The new system indexes rich Web archives from international institutions, and improves the 
efficiency of users’ information retrieval activities. 

Keywords: Web archive WARCfile Modular parse Solr index 
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